불리언 인덱싱

1. 개요

불리언 인덱싱은 데이터베이스나 검색 시스템에서 특정 키워드나 속성의 존재 여부를 이진 값으로 표현하는 인덱싱 방식이다. 각 문서나 레코드는 검색 대상이 되는 키워드에 대해 포함하면 1, 포함하지 않으면 0으로 표시된 비트맵으로 표현된다. 이 방식은 주로 간단한 키워드 검색과 불리언 쿼리 처리에 사용된다.

이 인덱싱의 핵심은 참과 거짓만을 판단하는 데 있다. 예를 들어, 여러 문서에 대해 '인공지능'이라는 키워드가 있는지 여부만을 비트열로 저장한다. 사용자가 '인공지능 AND 빅데이터'와 같은 불리언 연산으로 검색할 경우, 시스템은 두 키워드에 대한 비트맵을 빠르게 읽어 논리곱 연산을 수행하여 결과를 도출한다.

구현이 비교적 간단하고, AND, OR, NOT 같은 기본적인 집합 연산을 비트 단위 연산으로 매우 효율적으로 처리할 수 있다는 장점이 있다. 이는 전문 검색이나 특정 조건을 만족하는 레코드를 필터링하는 데 유용하게 적용된다.

그러나 키워드가 문서 내에서 얼마나 자주 등장하는지(빈도), 또는 얼마나 중요한지(가중치)는 전혀 고려하지 않는다. 또한 '인공지능'과 'AI'처럼 유사한 의미를 가진 키워드의 부분 일치나 유사도 검색에는 적합하지 않은 한계를 가진다.

2. 기본 원리

불리언 인덱싱의 기본 원리는 각 문서나 데이터베이스 레코드가 특정 키워드나 속성을 포함하는지 여부를 단순한 이진 값, 즉 0 또는 1로 표현하는 데 있다. 이 방식은 전문 검색 시스템이나 간단한 키워드 매칭이 필요한 환경에서 문서와 키워드 간의 관계를 매우 추상화된 형태로 모델링한다. 각 키워드는 하나의 비트맵을 가지며, 이 비트맵의 각 비트 위치는 특정 문서를 가리키고, 그 값은 해당 문서가 그 키워드를 포함하면 1, 포함하지 않으면 0이 된다. 따라서 전체 인덱스는 키워드별 비트맵들의 집합으로 구성된다.

이러한 표현 방식의 핵심 장점은 불리언 연산을 매우 효율적으로 처리할 수 있다는 점이다. 예를 들어, "A AND B"라는 쿼리를 처리하려면 키워드 A에 대한 비트맵과 키워드 B에 대한 비트맵을 가져와 비트 AND 연산을 수행하면 된다. 연산 결과에서 값이 1인 비트 위치들이 바로 두 키워드를 모두 포함하는 문서들의 식별자가 된다. 마찬가지로 OR 연산이나 NOT 연산도 해당하는 비트 연산으로 직접 구현되어, 복잡한 논리식을 빠르게 평가할 수 있다.

그러나 이 원리는 문서 내 키워드의 등장 빈도나 위치, 문서 가중치 같은 세부 정보를 완전히 무시한다. 오직 존재 여부만을 판단하기 때문에, "부분적으로 관련된" 문서를 찾거나 유사도에 기반한 순위화를 수행하는 데는 한계가 있다. 이는 불리언 인덱싱이 불리언 검색 모델에 철저하게 기반을 두고 있기 때문이며, 보다 정교한 벡터 공간 모델이나 확률적 모델과는 구별되는 특징이다.

결과적으로 불리언 인덱싱의 원리는 속도와 단순성을 최우선으로 하는 응용 분야에 적합하다. 데이터베이스 관리 시스템에서의 빠른 필터링이나, 사용자가 명시적인 논리 연산자를 사용하는 정보 검색 인터페이스, 그리고 그래프 알고리즘에서 노드의 속성 기반 선택 등이 대표적인 예시이다.

3. 구현 방법

3.1. 비트 연산을 이용한 구현

불리언 인덱싱의 구현에서 비트 연산은 핵심적인 역할을 한다. 각 키워드에 대해 시스템은 하나의 비트맵을 생성하며, 이 비트맵의 길이는 전체 문서의 수와 같다. 비트맵 내 각 비트의 위치는 특정 문서를 가리키고, 그 값이 1이면 해당 문서가 키워드를 포함함을, 0이면 포함하지 않음을 의미한다. 이러한 이진 표현은 메모리 사용을 최소화하면서도 빠른 접근을 가능하게 한다.

불리언 쿼리를 처리할 때는 이러한 비트맵들에 직접 비트 연산을 적용한다. 예를 들어, "A AND B"라는 쿼리는 키워드 A의 비트맵과 키워드 B의 비트맵을 비트 AND 연산하여 두 키워드를 모두 포함하는 문서만을 선별한다. 마찬가지로 "A OR B"는 비트 OR 연산을, "NOT A"는 비트 NOT 연산을 통해 해당 문서 집합을 빠르게 계산해 낼 수 있다. 이러한 연산은 CPU의 명령어 수준에서 매우 효율적으로 처리되므로, 대규모 문서 집합에 대한 검색도 실시간에 가깝게 수행할 수 있다.

구현 시에는 정수나 문자열 형태의 키워드를 내부적으로 정수 인덱스로 매핑하는 해시 테이블이나 사전 구조가 함께 사용되는 경우가 많다. 이 인덱스를 통해 해당 키워드의 비트맵을 빠르게 조회할 수 있다. 또한, 비트맵 자체는 배열이나 벡터 등의 자료 구조에 연속적으로 저장되어, 캐시 지역성을 높여 성능을 향상시킨다.

3.2. 배열/벡터를 이용한 구현

배열/벡터를 이용한 구현은 불리언 인덱싱을 구성하는 가장 직관적이고 일반적인 방법이다. 이 방식은 각 키워드나 속성에 대해 하나의 배열이나 벡터를 할당하며, 배열의 각 요소는 특정 문서나 레코드가 해당 키워드를 포함하는지 여부를 나타내는 이진 값(0 또는 1)을 저장한다. 예를 들어, 키워드 "인공지능"에 대한 배열은 전체 문서 집합을 순서대로 나열한 뒤, 첫 번째 문서가 해당 키워드를 포함하면 1, 포함하지 않으면 0으로 채워진다. 이렇게 생성된 배열들의 집합이 곧 불리언 인덱스가 된다.

이러한 구현은 메모리 상에 연속된 공간에 데이터를 저장하므로 접근 속도가 빠르며, 특히 불리언 쿼리 처리에 매우 효율적이다. 예를 들어, "머신러닝 AND 딥러닝"이라는 검색 쿼리를 처리할 때는 두 키워드에 해당하는 배열을 동시에 순회하며, 대응되는 위치의 값이 모두 1인 문서만을 선별하면 된다. 이는 단순한 비트 연산인 논리곱(AND)으로 구현 가능하다. 마찬가지로 논리합(OR)이나 부정(NOT) 연산도 배열 간의 기본적인 비트 연산으로 쉽게 수행할 수 있다.

연산	설명	구현 예시 (의사 코드)
AND (교집합)	두 키워드를 모두 포함하는 문서 검색	`result[i] = array_A[i] & array_B[i]`
OR (합집합)	두 키워드 중 하나라도 포함하는 문서 검색	`result[i] = array_A[i] \
NOT (차집합)	특정 키워드를 포함하지 않는 문서 검색	`result[i] = !array_A[i]`

배열 기반 구현의 단점은 희소 행렬 문제를 들 수 있다. 즉, 대부분의 문서가 대부분의 키워드를 포함하지 않는 경우, 배열의 대부분이 0으로 채워져 저장 공간이 비효율적으로 사용될 수 있다. 이를 보완하기 위해 실제 데이터베이스 시스템이나 정보 검색 엔진에서는 0이 연속되는 구간을 압축하는 런 렝스 인코딩 같은 기법을 적용하거나, 1의 위치(문서 ID)만을 리스트로 저장하는 역색인 방식과 결합하여 사용하기도 한다.

4. 장점과 단점

4.1. 장점

불리언 인덱싱의 가장 큰 장점은 구현이 간단하고 처리 속도가 빠르다는 점이다. 각 문서와 키워드의 관계를 0 또는 1로만 표현하기 때문에 데이터 구조가 단순하고, 이에 따른 인덱스 생성 및 유지 관리가 용이하다. 또한, 메모리 사용량이 상대적으로 적어 대규모 데이터를 효율적으로 처리할 수 있다.

두 번째로, 불리언 연산을 통한 질의 처리에 매우 효율적이다. AND, OR, NOT과 같은 기본적인 논리 연산은 단순한 비트 연산으로 구현될 수 있다. 예를 들어, 'A AND B'라는 쿼리는 두 키워드에 대한 비트맵을 비트 AND 연산하여 한 번에 결과를 얻을 수 있어 처리 속도가 매우 빠르다.

이러한 특성은 특히 정확한 키워드 매칭이 요구되는 전문 검색이나 데이터베이스의 필터링 작업에서 빛을 발한다. 사용자가 명확한 조건을 조합하여 검색할 때, 불리언 인덱싱은 복잡한 계산 없이도 신속하게 관련 문서 집합을 찾아낼 수 있다. 따라서 문서의 존재 여부만이 중요한 간단한 검색 시나리오에서 높은 성능을 보인다.

4.2. 단점

불리언 인덱싱의 가장 큰 단점은 검색의 정밀도가 낮다는 점이다. 이 방식은 키워드의 존재 여부만을 판단하기 때문에, 문서 내에서 해당 키워드가 얼마나 자주 등장하는지(빈도), 문서 내에서 어느 위치에 있는지(위치 정보), 또는 다른 키워드와의 관계성과 같은 세부적인 정보를 전혀 고려하지 않는다. 따라서 검색 결과의 순위를 매기거나 관련성을 평가하는 데 한계가 있다. 예를 들어, 특정 주제에 대해 깊이 있게 다루는 문서와 단순히 언급만 하는 문서가 검색 결과에서 동일한 가중치를 갖게 될 수 있다.

또 다른 단점은 부분 일치나 유사도 기반 검색에 적용하기 어렵다는 것이다. 불리언 인덱싱은 사용자의 쿼리와 문서가 정확히 일치하는 키워드를 가져야만 결과로 포함시키는 이진 필터링에 가깝다. 이는 사용자가 정확한 용어를 모르거나, 오타가 있거나, 유의어를 사용했을 때 검색 결과에서 원하는 문서를 누락시킬 가능성이 높다. 유사도 검색이나 형태소 분석을 통한 확장 검색과 같은 보다 정교한 정보 검색 기법을 지원하지 않는다.

마지막으로, 인덱스의 저장 공간 효율성 문제가 발생할 수 있다. 데이터베이스의 컬럼이나 문서 집합의 크기가 매우 크고, 인덱싱할 수 있는 고유 키워드(어휘)의 수가 많아질수록, 각 문서를 표현하는 비트맵의 크기도 커진다. 모든 키워드에 대해 비트맵을 유지해야 하므로, 희소한(드물게 등장하는) 키워드에 대해서도 공간을 차지하게 되어 전체 인덱스의 크기가 불필요하게 증가할 수 있다. 이는 메모리 사용량과 디스크 I/O에 부정적인 영향을 미칠 수 있다.

5. 응용 분야

5.1. 데이터베이스 시스템

데이터베이스 시스템에서 불리언 인덱싱은 문서나 레코드가 특정 키워드나 속성을 포함하는지 여부를 이진 값으로 표현하는 방식이다. 이는 주로 간단한 키워드 검색이나 불리언 쿼리 처리에 활용된다. 각 문서는 키워드별로 존재 여부만을 표시하는 비트맵으로 표현되며, 이를 통해 AND, OR, NOT과 같은 논리 연산을 빠르게 수행할 수 있다.

이 방식은 전문 검색 시스템이나 초기의 정보 검색 시스템에서 기본적인 검색 기능을 제공하는 데 널리 사용되었다. 구현이 비교적 간단하고, 명확한 조건에 따른 필터링이 주 목적일 때 매우 효율적으로 작동한다. 예를 들어, 특정 카테고리의 상품만을 선별하거나, 여러 태그를 동시에 만족하는 문서를 찾는 작업에 적합하다.

그러나 불리언 인덱싱은 키워드의 빈도나 문서 내 중요도를 전혀 고려하지 않는다는 근본적인 한계가 있다. 또한 부분 일치 검색이나 유사도 기반의 검색에는 적용하기 어려워, 보다 정교한 랭킹 알고리즘이 필요한 현대의 검색 엔진에서는 주된 인덱싱 방법으로 사용되기보다는 보조적인 역할을 담당하는 경우가 많다.

5.2. 정보 검색

정보 검색 시스템에서 불리언 인덱싱은 키워드 기반의 정확한 일치 검색을 위한 핵심 기법이다. 이 방식은 각 문서가 특정 용어를 포함하는지 여부만을 이진 값으로 기록한 비트맵을 생성한다. 사용자가 검색어를 입력하면, 시스템은 해당 키워드에 대한 비트맵을 불러와 불리언 연산을 통해 결과를 빠르게 도출한다. 예를 들어, "A AND B"라는 쿼리는 두 키워드의 비트맵을 비트 AND 연산하여 두 용어를 모두 포함하는 문서만을 선별한다.

이 방식은 전문 검색이나 문서 데이터베이스에서 간단한 필터링에 특히 효과적이다. 불리언 쿼리를 처리하는 데 있어 집합 연산과 동일한 논리로 작동하기 때문에 구현이 직관적이고 연산 속도가 매우 빠르다는 장점이 있다. 또한, 인덱스의 크기가 상대적으로 작아 메모리에 적재하여 고속 처리가 가능하다.

그러나 불리언 인덱싱은 키워드의 존재 여부만을 판단하기 때문에 순위 매기기나 관련도 평가에는 한계가 있다. 문서 내에서 키워드가 몇 번 나타났는지(용어 빈도), 또는 문서 집합 내에서 해당 키워드가 얼마나 희귀한지(역문서 빈도)와 같은 정보를 전혀 고려하지 않는다. 따라서 사용자가 원하는 가장 적합한 문서를 순서대로 보여주는 유사도 검색이나 부분 일치 검색에는 부적합하다.

이러한 특성 때문에 현대의 검색 엔진은 불리언 인덱싱을 정확한 필터링의 첫 단계로 사용하되, 최종 결과의 랭킹을 매기기 위해서는 벡터 공간 모델이나 기계 학습 기반의 더 정교한 랭킹 알고리즘을 결합하여 활용하는 경우가 많다.

5.3. 그래프 알고리즘

그래프 알고리즘에서 불리언 인덱싱은 주로 그래프의 인접 행렬 표현과 밀접한 관련이 있다. 인접 행렬은 정점 간의 연결 관계를 0 또는 1의 이진 값으로 표현하는 행렬로, 이는 본질적으로 불리언 인덱싱의 원리를 적용한 것이다. 각 행과 열은 그래프의 정점을 나타내며, 두 정점 사이에 간선이 존재하면 1, 그렇지 않으면 0으로 표시한다. 이 방식은 그래프의 구조를 명확하게 표현할 수 있어, 특정 정점이 다른 정점과 연결되어 있는지 여부를 빠르게 확인하는 데 유용하다.

특히, 인접 행렬을 이용한 불리언 인덱싱은 비트 연산을 활용한 효율적인 그래프 탐색에 기여한다. 예를 들어, 어떤 정점의 이웃 정점 집합을 찾는 작업은 해당 정점의 행에 해당하는 비트맵을 조회하는 것으로 간단히 수행될 수 있다. 또한, 두 정점 집합 간의 연결성을 분석하거나 경로 존재 여부를 판단하는 알고리즘에서 행렬 곱셈과 유사한 불리언 연산(AND, OR)을 적용할 수 있는 기반을 제공한다.

이러한 접근법은 방향성 그래프나 가중치 없는 그래프에서의 기본 연산에 적합하다. 그러나 그래프의 크기가 매우 커질수록 인접 행렬은 희소 행렬이 되어 대부분의 값이 0이 되기 때문에 메모리 효율성이 떨어지는 단점이 있다. 이 경우 인접 리스트나 압축 행렬과 같은 다른 자료 구조가 더 효율적일 수 있다. 불리언 인덱싱 기반의 인접 행렬은 그래프 이론의 기본 개념을 이해하고, 소규모 그래프나 밀집 그래프에서의 알고리즘 설계에 유용하게 활용된다.

6. 관련 개념

6.1. 비트맵 인덱스

비트맵 인덱스는 데이터베이스나 정보 검색 시스템에서 사용되는 특수한 형태의 인덱스이다. 이 방식은 각 문서나 레코드가 특정 키워드나 속성을 포함하는지 여부를 0 또는 1의 이진 값, 즉 비트로 표현한다. 예를 들어, 특정 키워드가 문서에 존재하면 1, 존재하지 않으면 0으로 표시하여 모든 문서에 대한 해당 키워드의 존재 여부를 하나의 비트맵으로 만든다. 이는 불리언 쿼리 처리에 매우 적합한 구조를 제공한다.

이 인덱싱 방식의 가장 큰 장점은 불리언 연산을 효율적으로 처리할 수 있다는 점이다. 사용자가 'A AND B'와 같은 쿼리를 실행하면, 시스템은 키워드 A에 대한 비트맵과 키워드 B에 대한 비트맵을 단순한 비트 연산인 AND로 결합하여 결과를 즉시 얻을 수 있다. 마찬가지로 OR이나 NOT 연산도 빠른 비트 연산으로 처리 가능하여, 특히 간단한 키워드 검색이나 전문 검색 시스템에서 구현이 간단하고 속도가 빠르다는 강점을 가진다.

그러나 비트맵 인덱스에는 명확한 한계가 존재한다. 이 방식은 키워드의 존재 여부만을 판단할 뿐, 문서 내에서의 빈도나 중요도와 같은 추가 정보를 전혀 고려하지 않는다. 따라서 '부분 일치'나 '유사도' 기반의 검색에는 적합하지 않다. 또한, 인덱스가 차지하는 저장 공간은 고유 키워드의 수가 증가함에 따라 선형적으로 증가할 수 있어, 대규모 데이터 세트에서는 관리가 복잡해질 수 있다.

이러한 특성 때문에 비트맵 인덱스는 불리언 검색이 핵심인 특정 응용 프로그램에서 주로 활용된다. 예를 들어, 특정 조건을 만족하는 레코드를 빠르게 필터링하는 데이터 웨어하우스의 OLAP 쿼리나, 문서의 키워드 보유 여부만으로 충분한 초기의 검색 엔진에서 그 유용성을 발휘했다.

6.2. 비트 마스킹

비트 마스킹은 컴퓨터 과학에서 정수의 비트를 플래그(flag)나 집합(set)의 원소처럼 사용하는 기법이다. 주로 메모리 사용량을 최소화하거나 연산 속도를 높이기 위해 적용되며, 특히 알고리즘 문제 해결과 시스템 프로그래밍에서 널리 활용된다.

비트 마스킹의 핵심은 각 비트의 위치를 인덱스로, 비트의 값(0 또는 1)을 해당 인덱스의 상태(예: 존재 여부, 활성화 여부)로 간주하는 것이다. 예를 들어, 0부터 4까지의 다섯 가지 상태를 나타내야 할 때, 5비트 정수를 사용하여 첫 번째 비트는 상태 0, 두 번째 비트는 상태 1을 표현할 수 있다. 이때 특정 상태를 설정하거나 확인하는 작업은 비트 연산을 통해 이루어진다. 대표적으로 AND 연산은 특정 비트가 켜져 있는지 확인하는 데, OR 연산은 비트를 켜는 데, XOR 연산은 비트를 토글하는 데 사용된다.

이 기법은 상태 공간이 작은 경우 집합 연산을 매우 효율적으로 수행할 수 있게 한다. 예를 들어, 부분 집합을 순회하거나 두 집합의 합집합, 교집합을 구하는 작업이 단순한 비트 연산 한 번으로 가능해진다. 또한 동적 계획법과 결합되어 방문 상태를 압축적으로 표현하는 데 자주 쓰인다.

비트 마스킹의 주요 제약은 표현 가능한 상태의 수가 사용하는 정수의 비트 수에 제한된다는 점이다. 일반적으로 32비트 정수는 32개의 독립적인 상태, 64비트 정수는 64개의 상태까지 표현할 수 있다. 따라서 상태의 종류가 매우 많거나 무한한 경우에는 배열이나 다른 자료 구조를 사용하는 것이 더 적합할 수 있다.

6.3. 집합 연산

집합 연산은 불리언 인덱싱의 핵심 동작 원리이다. 이 인덱싱 방식에서 각 키워드는 하나의 집합으로 간주되며, 그 집합의 원소는 해당 키워드를 포함하는 문서나 레코드의 식별자(ID)이다. 불리언 쿼리는 이러한 집합들 간의 연산으로 처리된다. 예를 들어, "A AND B"라는 쿼리는 키워드 A에 대한 문서 집합과 키워드 B에 대한 문서 집합의 교집합 연산을 수행하여 두 키워드를 모두 포함하는 문서를 찾아낸다. 마찬가지로 "A OR B"는 합집합 연산을, "A NOT B"는 차집합 연산을 통해 결과를 도출한다.

이러한 집합 연산은 비트맵을 통해 매우 효율적으로 구현된다. 각 키워드에 대한 문서 집합은 하나의 긴 비트열로 표현되며, 비트열의 각 위치는 특정 문서 ID에 대응한다. 해당 키워드를 문서가 포함하면 1, 포함하지 않으면 0의 값을 가진다. 두 집합의 교집합은 두 비트열에 대해 비트 단위의 논리곱(AND) 연산을 수행하는 것과 동일하다. 합집합은 논리합(OR) 연산, 차집합은 첫 번째 비트열과 두 번째 비트열의 보수에 대한 논리곱 연산으로 계산할 수 있다.

집합 연산을 기반으로 하는 불리언 인덱싱은 데이터베이스 시스템의 인덱스나 정보 검색 엔진에서 빠른 필터링을 제공한다. 특히, 사용자의 쿼리가 명확한 포함 여부를 기준으로 하는 불리언 식일 때, 시스템은 관련된 모든 키워드의 비트맵을 메모리에 로드한 후, CPU의 고속 비트 연산 명령어를 이용해 복잡한 쿼리도 순식간에 처리할 수 있다. 이는 역인덱스를 이용해 문서 목록을 조회하고 병합하는 전통적인 방식에 비해 훨씬 빠른 성능을 보인다.

그러나 이 방식은 집합의 원소인지 아닌지에 대한 이분법적 판단에만 의존한다는 한계가 있다. 문서 내에서 키워드가 등장한 빈도나 위치, 문서 전체에서의 중요도를 반영하는 가중치 계산이나, 의미적 유사도를 평가하는 벡터 공간 모델과 같은 고급 연산에는 직접적으로 적용하기 어렵다. 따라서 불리언 인덱싱과 그 집합 연산은 정확한 키워드 매칭과 빠른 후보 문서 선별에 특화된 도구로 사용된다.

7. 여담

불리언 인덱싱은 그 단순함과 효율성 덕분에 현대 데이터베이스 시스템의 초석을 이루는 기술 중 하나로 평가받는다. 이 방식은 불리언 대수의 원리를 데이터 관리에 직접 적용한 대표적인 사례로, 복잡한 쿼리를 매우 빠른 속도로 처리할 수 있게 한다. 특히 전문 검색이나 문서 관리 시스템에서 특정 조건을 만족하는 문서 집합을 신속하게 필터링하는 데 널리 활용된다.

이 인덱싱 기법은 집합 연산을 비트 단위의 논리 연산으로 변환한다는 점에서 컴퓨터 하드웨어와 매우 친화적이다. CPU는 일반적으로 비트 연산을 매우 빠르게 수행할 수 있으므로, 대규모 문서 집합에 대한 AND, OR, NOT 연산도 거의 실시간에 가깝게 처리 가능하다. 이러한 특성은 정보 검색의 역사에서 중요한 발전을 이끌었다.

하지만 불리언 인덱싱의 한계도 분명하다. 검색 결과의 순위를 매기거나 유사도를 계산하는 데는 적합하지 않으며, 키워드의 중요도나 맥락을 전혀 고려하지 않는다. 이로 인해 더 정교한 검색이 필요한 현대의 검색 엔진에서는 벡터 공간 모델이나 기계 학습 기반의 랭킹 알고리즘과 같은 더 복잡한 기법들이 주로 사용된다. 불리언 인덱싱은 종종 이러한 고급 시스템의 초기 필터링 단계에서 활용된다.

관련 기술로는 데이터베이스에서 고도로 최적화된 비트맵 인덱스가 있으며, 메모리 내 빠른 집합 연산을 위해 비트 마스킹 기법이 프로그래밍에서 자주 사용된다. 기본 원리를 이해하는 것은 알고리즘 설계나 시스템 성능 최적화를 고민할 때 유용한 시각을 제공해 준다.

불리언 인덱싱

정의	데이터베이스나 검색 시스템에서, 각 문서나 레코드가 특정 키워드나 속성을 포함하는지 여부를 0 또는 1(참 또는 거짓)의 이진 값으로 표현하는 인덱싱 방식
주요 용도	간단한 키워드 검색 불리언 쿼리(AND, OR, NOT) 처리 전문 검색 시스템
핵심 원리	각 문서는 키워드에 대한 존재 여부만을 표시하는 비트맵으로 표현됨
장점	구현이 간단하고 빠름 불리언 연산(AND, OR, NOT) 처리에 효율적
단점	키워드의 빈도나 중요도를 고려하지 않음 부분 일치나 유사도 검색에 부적합
상세 정보
동작 방식	인덱스는 (키워드, 문서 ID 리스트)의 형태로 구성됨 쿼리 시, 키워드 리스트에 해당하는 문서 ID 집합을 불리언 연산으로 결합하여 결과 도출
관련 개념	비트맵 인덱스 역색인 벡터 공간 모델
대안 기법	벡터 공간 모델(가중치 기반) 확률적 모델

불리언 인덱싱

정의	데이터베이스나 검색 시스템에서, 각 문서나 레코드가 특정 키워드나 속성을 포함하는지 여부를 0 또는 1(참 또는 거짓)의 이진 값으로 표현하는 인덱싱 방식
주요 용도	간단한 키워드 검색 불리언 쿼리(AND, OR, NOT) 처리 전문 검색 시스템
핵심 원리	각 문서는 키워드에 대한 존재 여부만을 표시하는 비트맵으로 표현됨
장점	구현이 간단하고 빠름 불리언 연산(AND, OR, NOT) 처리에 효율적
단점	키워드의 빈도나 중요도를 고려하지 않음 부분 일치나 유사도 검색에 부적합
상세 정보
동작 방식	인덱스는 (키워드, 문서 ID 리스트)의 형태로 구성됨 쿼리 시, 키워드 리스트에 해당하는 문서 ID 집합을 불리언 연산으로 결합하여 결과 도출
관련 개념	비트맵 인덱스 역색인 벡터 공간 모델
대안 기법	벡터 공간 모델(가중치 기반) 확률적 모델

불리언 인덱싱

1. 개요

2. 기본 원리

3. 구현 방법

3.1. 비트 연산을 이용한 구현

3.2. 배열/벡터를 이용한 구현

4. 장점과 단점

4.1. 장점

4.2. 단점

5. 응용 분야

5.1. 데이터베이스 시스템

5.2. 정보 검색

5.3. 그래프 알고리즘

6. 관련 개념

6.1. 비트맵 인덱스

6.2. 비트 마스킹

6.3. 집합 연산

7. 여담

편집 제한

편집 제한

문서 정보

분류

편집 제한

문서 정보

분류

편집 제한